SAPO去中心化训练:多节点协作让LLM训练效率提升94% Swarm sAmplingPolicyOptimization,简称SAPO,这个名字听起来有点学术,但它解决的问题很实际。大规模语言模型的后训练一直是个让人头疼的事情——要么资源不够,要么效率太低。SAPO提出了一种去中心化的异步RL方案,让各个计算节点之 训练 llm sapo 多节点协作 llm训练 2025-09-19 20:31 2